In this paper, we address the problem of multimodal emotion recognition from multiple physiological signals. We demonstrate that a Transformer-based approach is suitable for this task. In addition, we present how such models may be pretrained in a multimodal scenario to improve emotion recognition performances. We evaluate the benefits of using multimodal inputs and pre-training with our approach on a state-ofthe-art dataset.
translated by 谷歌翻译
Explainable AI transforms opaque decision strategies of ML models into explanations that are interpretable by the user, for example, identifying the contribution of each input feature to the prediction at hand. Such explanations, however, entangle the potentially multiple factors that enter into the overall complex decision strategy. We propose to disentangle explanations by finding relevant subspaces in activation space that can be mapped to more abstract human-understandable concepts and enable a joint attribution on concepts and input features. To automatically extract the desired representation, we propose new subspace analysis formulations that extend the principle of PCA and subspace analysis to explanations. These novel analyses, which we call principal relevant component analysis (PRCA) and disentangled relevant subspace analysis (DRSA), optimize relevance of projected activations rather than the more traditional variance or kurtosis. This enables a much stronger focus on subspaces that are truly relevant for the prediction and the explanation, in particular, ignoring activations or concepts to which the prediction model is invariant. Our approach is general enough to work alongside common attribution techniques such as Shapley Value, Integrated Gradients, or LRP. Our proposed methods show to be practically useful and compare favorably to the state of the art as demonstrated on benchmarks and three use cases.
translated by 谷歌翻译
课堂学习学习需要可塑性和稳定性,以便在保留过去的知识的同时从新数据中学习。由于灾难性的遗忘,当没有内存缓冲区可用时,在这两个属性之间找到妥协尤其具有挑战性。主流方法需要存储两个深层模型,因为它们使用微调与以前的增量状态的知识蒸馏一起整合了新类。我们提出了一种具有相似数量参数但分布不同的方法,以便在可塑性和稳定性之间找到更好的平衡。遵循已经通过基于转移的增量方法部署的方法,我们在初始状态后冻结了功能提取器。最古老的增量状态的类对这种冷冻提取器进行训练,以确保稳定性。使用部分微调模型预测最近的类别以引入可塑性。我们提出的可塑性层可以纳入任何用于无内存增量学习的基于转移的方法,并将其应用于两种此类方法。评估是通过三个大型数据集进行的。结果表明,与现有方法相比,所有测试的配置中均获得了性能提高。
translated by 谷歌翻译
ICECUBE是一种用于检测1 GEV和1 PEV之间大气和天体中微子的光学传感器的立方公斤阵列,该阵列已部署1.45 km至2.45 km的南极的冰盖表面以下1.45 km至2.45 km。来自ICE探测器的事件的分类和重建在ICeCube数据分析中起着核心作用。重建和分类事件是一个挑战,这是由于探测器的几何形状,不均匀的散射和冰中光的吸收,并且低于100 GEV的光,每个事件产生的信号光子数量相对较少。为了应对这一挑战,可以将ICECUBE事件表示为点云图形,并将图形神经网络(GNN)作为分类和重建方法。 GNN能够将中微子事件与宇宙射线背景区分开,对不同的中微子事件类型进行分类,并重建沉积的能量,方向和相互作用顶点。基于仿真,我们提供了1-100 GEV能量范围的比较与当前ICECUBE分析中使用的当前最新最大似然技术,包括已知系统不确定性的影响。对于中微子事件分类,与当前的IceCube方法相比,GNN以固定的假阳性速率(FPR)提高了信号效率的18%。另外,GNN在固定信号效率下将FPR的降低超过8(低于半百分比)。对于能源,方向和相互作用顶点的重建,与当前最大似然技术相比,分辨率平均提高了13%-20%。当在GPU上运行时,GNN能够以几乎是2.7 kHz的中位数ICECUBE触发速率的速率处理ICECUBE事件,这打开了在在线搜索瞬态事件中使用低能量中微子的可能性。
translated by 谷歌翻译
可靠的概括是安全ML和AI的核心。但是,了解神经网络何时以及如何推广仍然是该领域最重要的未解决问题之一。在这项工作中,我们进行了一项广泛的实证研究(2200个模型,16个任务),以研究计算理论中的见解是否可以预测实践中神经网络概括的局限性。我们证明,根据Chomsky层次结构进行分组任务使我们能够预测某些架构是否能够推广到分布外输入。这包括负面结果,即使大量数据和训练时间也不会导致任何非平凡的概括,尽管模型具有足够的能力完美地适合培训数据。我们的结果表明,对于我们的任务子集,RNN和变形金刚无法概括非规范的任务,LSTMS可以解决常规和反语言任务,并且只有通过结构化内存(例如堆栈或存储器磁带)可以增强的网络可以成功地概括了无上下文和上下文敏感的任务。
translated by 谷歌翻译
在这项工作中,我们证明了如何通过预期最大化算法来处理随机和风险敏感的最佳控制问题。我们展示了这种处理如何实现为两个独立的迭代程序,每个迭代程序都会产生一个独特但密切相关的密度函数序列。我们激励将这些密度解释为信念,将ERGO作为确定性最佳政策的概率代理。更正式的两个固定点迭代方案是根据代表可靠的期望最大化方法的确定性最佳策略一致的固定点得出的。我们倾向于指出我们的结果与控制范式密切相关。在此推理中的控制是指旨在将最佳控制作为概率推断的实例的方法集合。尽管所说的范式已经导致了几种强大的强化学习算法的发展,但基本问题陈述通常是由目的论论证引入的。我们认为,目前的结果表明,较早的控制作为推理框架实际上将一个步骤与所提出的迭代程序中的一个步骤隔离。在任何情况下,本疗法都为他们提供了有效性的义学论点。通过暴露基本的技术机制,我们旨在为控制作为一种推断为取代当前最佳控制范式的框架的普遍接受。为了激发提出的治疗的普遍相关性,我们在勾勒出未来算法开发的大纲之前,进一步讨论了与路径积分控制和其他研究领域的相似之处。
translated by 谷歌翻译
诸如最大熵正则化之类的政策正则化方法被广泛用于增强学习以提高学习政策的鲁棒性。在本文中,我们展示了这种鲁棒性是如何通过对冲的奖励功能扰动而产生的,奖励功能是从想象中的对手设定的限制设置中选择的。使用凸双重性,我们表征了KL和Alpha-Divergence正则化的一组强大的对抗奖励扰动集,其中包括香农和Tsallis熵正则定期为特殊情况。重要的是,可以在此强大集合中给出概括保证。我们提供了有关最坏的奖励扰动的详细讨论,并提供了直观的经验示例,以说明这种稳健性及其与概括的关系。最后,我们讨论我们的分析如何补充并扩展对对抗奖励鲁棒性和路径一致性最佳条件的先前结果。
translated by 谷歌翻译
变压器已成为机器学习的重要主力,并具有许多应用。这需要开发可靠的方法来提高其透明度。已经提出了多种基于梯度信息的多种可解释性方法。我们表明,变压器中的梯度仅在本地反映该函数,因此无法可靠地确定输入特征对预测的贡献。我们将注意力头和分层确定为这种不可靠的解释的主要原因,并提出了通过这些层传播的一种更稳定的方式。我们的建议在理论上和经验上都显示出良好的LRP方法的适当扩展,以克服简单基于梯度的方法的缺乏,并实现先进的解释绩效在广泛的变压器模型和数据集上。
translated by 谷歌翻译
目的:通过可穿戴传感器持续监测生物信号,在医疗和健康领域迅速扩展。在静止时,自动检测重要参数通常是准确的。然而,在诸如高强度运动的条件下,信号发生突然的生理变化,损害标准算法的鲁棒性。方法:我们的方法称为Bayeslope,是基于无监督的学习,贝叶斯滤波和非线性归一化,并根据ECG中的预期位置来增强和正确地检测R峰值。此外,随着贝叶克洛斯的计算沉重并且可以快速排出设备电池,我们提出了一种在线设计,可使其突然生理变化以及对现代嵌入式平台的异构资源的复杂性。该方法将Bayeslope与轻量级算法相结合,在具有不同能力的核心中执行,以减少能量消耗,同时保持精度。结果:贝森普洛普在激进的骑自行车运动中实现了99.3%的F1得分为99.3%。此外,在线自适应过程在五种不同的运动强度上实现了99%的F1得分,总能耗为1.55±0.54〜MJ。结论:我们提出了一种高度准确和稳健的方法,以及在现代超低功耗嵌入式平台中的完整节能实现,以提高攻击条件下的R峰值检测,例如在高强度运动期间。重要意义:实验表明,贝叶普洛斯在F1分数中优于8.4%的最先进的算法,而我们的在线自适应方法可以在现代异构可穿戴平台上达到高达38.7%的节能。
translated by 谷歌翻译
我们扩展了时间差异(TD)学习,以获得风险敏感的无模型加强学习算法。该扩展可以被视为Rescorla-Wagner规则的修改,其中(六样)刺激被认为是过度或低估TD目标的事件。结果,获得从I.I.D的自由能量的随机近似规则。通过高斯分布产生的样本,具有未知的平均值和方差。由于已知高斯自由能量是对平均值和方差的确定性相当敏感,因此学习规则具有风险敏感决策的应用。
translated by 谷歌翻译